神经网络(NNS)和决策树(DTS)都是机器学习的流行模型,但具有相互排斥的优势和局限性。为了带来两个世界中的最好,提出了各种方法来明确或隐式地集成NN和DTS。在这项调查中,这些方法是在我们称为神经树(NTS)的学校中组织的。这项调查旨在对NTS进行全面审查,并尝试确定它们如何增强模型的解释性。我们首先提出了NTS的彻底分类学,该分类法表达了NNS和DTS的逐步整合和共同进化。之后,我们根据NTS的解释性和绩效分析,并建议解决其余挑战的可能解决方案。最后,这项调查以讨论有条件计算和向该领域的有希望的方向进行讨论结束。该调查中审查的论文列表及其相应的代码可在以下网址获得:https://github.com/zju-vipa/awesome-neural-trees
translated by 谷歌翻译
训练后量化(PTQ)由于其在部署量化的神经网络方面的便利性而引起了越来越多的关注。 Founding是量化误差的主要来源,仅针对模型权重进行了优化,而激活仍然使用圆形至最终操作。在这项工作中,我们首次证明了精心选择的激活圆形方案可以提高最终准确性。为了应对激活舍入方案动态性的挑战,我们通过简单的功能适应圆形边框,以在推理阶段生成圆形方案。边界函数涵盖了重量误差,激活错误和传播误差的影响,以消除元素误差的偏差,从而进一步受益于模型的准确性。我们还使边境意识到全局错误,以更好地拟合不同的到达激活。最后,我们建议使用Aquant框架来学习边界功能。广泛的实验表明,与最先进的作品相比,Aquant可以通过可忽略不计的开销来取得明显的改进,并将Resnet-18的精度提高到2位重量和激活后训练后量化下的精度最高60.3 \%。
translated by 谷歌翻译
随着视频数量的越来越多,对技术的需求很大,可以帮助人们迅速导航到他们感兴趣的视频片段。但是,当前的视频理解主要理解主要是视频内容摘要,而几乎没有努力,而对探索视频的结构。受文本轮廓生成的启发,我们介绍了一项新颖的视频理解任务,即视频大纲生成(VOG)。该任务定义为包含两个子任务:(1)首先根据内容结构对视频进行分割,然后(2)为每个段生成一个标题。要学习和评估VOG,我们注释了一个10K+数据集,称为Duvog。具体来说,我们使用OCR工具来识别视频的字幕。然后,要求注释者将字幕分为章节,并将每个章节分为标题。在视频中,突出显示的文本往往是标题,因为它更有可能引起人们的注意。因此,我们提出了一个视觉字幕功能增强的视频大纲生成模型(VSENET),该模型将文本字幕及其视觉字体大小和位置作为输入。我们将VOG任务视为一个序列标记问题,该问题提取了跨标题的位置,然后将其重写以形成最终大纲。此外,基于视频概述和文本概述之间的相似性,我们使用大量文章带有章节标题来预先我们的模型。 Duvog上的实验表明,我们的模型在很大程度上胜过其他基线方法,对于视频分割水平达到了77.1的F1得分,对于标题生成级别的Rouge-L_F0.5的85.0。
translated by 谷歌翻译
变压器的注意机制有效地从输入序列中提取相关信息。然而,自我注意力的二次复杂性W.R.T序列长度会产生沉重的计算和记忆负担,尤其是对于长序列的任务。现有的加速器在这些任务中面临性能退化。为此,我们建议Salo为长序列提供杂交稀疏注意机制。Salo包含一个数据调度程序,将混合稀疏注意模式映射到硬件和空间加速器上,以执行有效的注意力计算。我们表明,与GPU和CPU实施相比,Salo平均达到17.66 X和89.33倍的速度,即典型的工作负载,即Longformer和VIL。
translated by 谷歌翻译
辐射脑病(REP)是鼻咽癌(NPC)放疗最常见的并发症。非常希望协助临床医生优化NPC放射疗法方案,以减少放射疗法诱导的颞叶损伤(RTLI),该疗程根据REP发作的可能性。据我们所知,这是通过在NPC放射治疗方案中共同利用图像和非图像数据来预测放疗诱导的REP的首次探索。我们将代表预测作为生存分析任务,并根据一致性指数(CI)评估预测准确性。我们设计了一个深层多模式生存网络(MSN),该网络(MSN)具有两个特征提取器,以从多模式数据中学习判别特征。一个功能提取器在非图像数据上施加特征选择,另一个功能提取器从图像中学习视觉特征。因为直接使CI最大化的CI(BCI)损耗函数对每批采样不均匀。因此,我们提出了一种新型的加权CI(WCI)损失函数,以通过双平均操作分配其不同的权重有效地利用所有REP样本。我们进一步引入了WCI温度高参数,以增强样本对的风险差异,以帮助建模收敛。我们在私人数据集上广泛评估WCI,以证明其对同行的可爱性。实验结果还表明,NPC放射疗法的多模式数据可以为REP风险预测带来更多收益。
translated by 谷歌翻译
在肺结节的管理中,我们希望根据其在计算机断层扫描(CT)扫描的直径变化方面预测结节的演变,然后根据结节不断增长的趋势的预测结果提供后续建议。为了提高肺结节增长趋势预测的性能,与连续CT扫描中相同结节的变化进行比较至关重要。在此激励的情况下,我们从国家肺筛查试验(NLST)数据集进行了两次以上的CT扫描,筛选了4,666名受试者,以组织一个名为NLSTT的颞数据集。在具体上,我们首先检测并配对感兴趣的区域(ROI),该区域涵盖了基于注册的CT扫描的相同结节。之后,我们通过模型预测结节的纹理类别和直径大小。最后,我们根据直径的变化来注释每个结节的演化类别。基于构建的NLSTT数据集,我们建议一个暹罗编码器同时利用从连续的CT扫描中检测到的3D ROI的判别特征。然后,我们在新小时设计一个时空混合器(STM)来利用连续3D ROI中同一结节的间隔变化,并捕获结节区域的空间依赖性和当前的3D ROI。根据临床诊断常规,我们采用层次损失来更多地关注生长的结节。我们有组织的数据集上的广泛实验证明了我们提出的方法的优势。我们还对内部数据集进行了实验,以通过将其与熟练的临床医生进行比较来评估我们方法的临床实用性。
translated by 谷歌翻译
我们提出了一种有效的神经邻域搜索(N2S),以解决取货和交付问题(PDPS)。具体而言,我们设计了强大的综合注意力,可以使香草自我注意力综合有关路线解决方案的各种特征。我们还利用了两个自定义的解码器,它们会自动学习执行拾取节点对的删除和重新插入以应对优先限制。此外,利用多样性增强方案以进一步改善性能。我们的N2是通用的,并且对两个规范PDP变体进行了广泛的实验表明,它可以在现有神经方法之间产生最新的结果。此外,它甚至超过了众所周知的LKH3求解器在更受限的PDP变体上。我们针对N2S的实施可在线获得。
translated by 谷歌翻译
变压器模型已经取得了有希望的自然语言处理(NLP)任务,包括提取问题应答(QA)。 NLP任务中使用的通用变压器编码器在所有层中处理上下文段落中所有输入令牌的隐藏状态。但是,与序列分类等其他任务不同,应答所提出的问题不一定需要上下文段落中的所有令牌。在此动机之后,我们提出了薄块撇子,这将在更高的隐藏层中略微浏览不必要的上下文,以改善和加速变压器性能。块撇屏的关键概念是识别必须进一步处理的上下文,并且可以在推理期间早期安全地丢弃的语言。批判性地,我们发现这些信息可以充分地从变压器模型内的自我注意重量得出。我们进一步将对应于下层的不必要位置对应的隐藏状态,实现了显着的推理时间加速。令我们惊讶的是,我们观察到这种方式修剪的模型优于他们的全尺寸对应物。 Block-Skim在不同数据集上提高了QA模型的准确性,并在BERT-Base模型上实现了3次加速。
translated by 谷歌翻译
轨迹预测在智能车辆或社会机器人领域发挥着关键作用。最近的作品侧重于建模空间社会影响或时间运动注意,但忽视了运动的固有特征,即移动趋势和驾驶意图。本文提出了一种用于车辆轨迹预测的无背景的分层运动编码器 - 解码器网络(HMNET)。 HMNET首先揭示了运动的分层差异,以编码具有高富有动态趋势和驾驶意图的高效力的物理兼容模式。然后,根据位置 - 速度 - 加速相关模式分层地分层地构建多模式预测的目标(端点)。此外,我们介绍了一个修改的社交池模块,它考虑了某些运动属性来代表社交交互。 HMNET可以实现准确,单峰/多模式和物理上兼容的预测。三个公共轨迹预测数据集的实验,即NGSIM,高达和交互表明,我们的模型定量和定性地实现了最先进的性能。我们将在此处发布我们的代码:https://github.com/xuedashuai/hmnet。
translated by 谷歌翻译
最近,变压器已成为解决车辆路由问题(VRP)的盛行深度建筑。但是,它在学习VRP的学习改进模型方面的有效性较小,因为其位置编码(PE)方法不适合表示VRP解决方案。本文介绍了一种新颖的双重协作变压器(DACT),以分别学习节点和位置特征的嵌入,而不是像现有的那样将它们融合在一起,以避免潜在的噪音和不相容的相关性。此外,位置特征通过新型的循环位置编码(CPE)方法嵌入,以使变压器有效捕获VRP溶液(即环状序列)的圆形性和对称性。我们使用近端政策优化训练DACT,并设计一种课程学习策略,以提高样本效率。我们应用DACT来解决旅行推销员问题(TSP)和电容的车辆路由问题(CVRP)。结果表明,我们的DACT优于现有的基于变压器的改进模型,并且在合成和基准实例上分别在不同问题大小上表现出更好的概括性能。
translated by 谷歌翻译